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dE 要 : 社团 结构 分 析 是 复杂 网 络 研究 的 一 项 重要 内 容 。 基 于 群体 智能 思想 提出 了 一 种 自 组 织 的 重 登 社团 结 构 分 析 算 
法 SO2CSA2。 基 本 思想 是 : 把 网 络 视 为 一 个 群体 ， 网 络 节点 是 其 中 的 一 个 个 具有 简单 智能 的 个 体 ， 每 个 个 体 依 据 定义 
的 社团 连接 分 数 自主 决定 要 加 入 的 社团 (可 同时 加 入 多 个 社团 ) 。 首 先 在 网 络 中 寻找 一 组 KK- 派 系 作为 初始 社团 结构 ; 
在 此 基础 上 ， 所 有 个 体 先 代 地 选择 其 社团 归属 ， 最 终 整 个 网 络 的 社团 结构 将 逐渐 生长 出 来 ; 最 后 对 获得 的 社团 结构 进 
行 后 处 理 ， 即 调整 少量 节点 的 社团 归属 ， 以 提高 其 质量 。 在 一 组 合成 网 络 和 现实 世界 网 络 上 的 实验 表明 ，SO2CSA2 发 
现 的 社团 结构 的 质量 比 两 种 对 比 算法 (SLPA 和 OSLOM) 更 好 ， 尤 其 是 在 网 络 中 重合 节点 较 多 或 节点 重合 度 较 大 的 情 
况 下 ， 社 团结 构 质量 的 提升 更 为 明显 。 
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Abstract: Community structure analysis is a critical task in examining a complex network. This paper presented a self- 
organizing overlapping community structure analysis algorithm (SO?CS A?) based on the swarm intelligence theory. The basic 
idea behind the algorithm was that it treats an analyzed network as a swarm intelligence system, of which each node was an 
individual with simple intelligence. Each individual independently decides to which community it joined based on a defined 
metric named connection score. An individual could join to multiple communities simultaneously. At first, the algorithm found 
a set of K-cliques from the analyzed network as the initial community structure. Then, each individual in the system acted 
iteratively to join into or leave from communities, and an optimal community structure of the whole network could develop and 
eventually emerge from the initial community structure. Finally, to improve the quality of the obtained community structure, a 
post process adjusted community assignments of a small number of individuals. Experimental evaluation on a number of 
synthesized networks and real-world networks indicates that the quality of community structures discovered by SO?CS A? is 
better than those of two compared algorithms, SLPA and OSLOM, especially on networks with a large number of overlapping 
nodes or on networks with overlapping nodes of which overlapping degrees are high. 
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intelligence 
jz 杂 网 络 加 以 研究 。 不 同 于 随机 网 络 ， 复 杂 网 络 往往 表现 出 很 多 
- 特殊 的 属性 , 如 节点 度 的 宕 律 (power-law) 分 布 、 小 世界 small 


人 类 的 生活 和 生产 活动 越 来 越 多 地 依赖 于 各 种 复杂 系统 的 world) 、 无 标 度 (scale-free)、 社 团结 构 (community structure) 


运行 ， 如 因特网、 移动 通信 网 络 、 万 维 网 、 交 通 网 络 、 电 力 网 。 等 。 分 析 网 络 的 社团 结构 ， 不 仅 有 助 于 在 中 观 结构 上 相对 于 


络 、 


经 济 网 络 、 社 会 关系 网 络 等 。 这 些 系统 可 以 抽象 成 一 个 复 ”在 宏观 结构 上 分 析 网 络 整体 ， 或 在 微观 结构 上 分 析 节 点 ) 理解 
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复杂 网 络 的 拓扑 结构 特性 , 还 可 用 到 具体 应 用 中 产生 实际 效益 。 11 重 琶 社团 直接 检测 算法 

例如 ， 万 维 网 络 中 ， 社 团 可 以 看 做 是 一 组 相关 主题 的 网 页 ， 社 1) 标签 传播 算法 

司 分 析 结 果 可 用 于 优化 搜索 结果 ; 在线 社 会 网 络 中 ， 社 团 是 一 标签 传播 算法 (labelpropagation algorithm,LPA ) 的 出 发 点 


群 具有 密切 联系 的 成 员 ， 社 团 分 析 结 果 有 助 于 设计 更 加 可 靠 的 。” 是 利用 信息 在 具有 社团 结构 的 网 络 中 的 传播 特性 ， 即 信息 沿边 
朋友 推荐 系统 ， 购 物 网 站 中 ， 通 过 对 用 户 及 其 购买 商品 网 络 进 ” ”以 更 高 的 概率 在 社团 内 部 传播 。 首 先 给 网 络 的 每 个 节点 分 配 一 
行 社团 结构 分 析 ， 可 识别 出 具有 相似 购买 兴趣 的 客户 ， 从 而 建 ” 个 标签 (代表 节点 的 归属 社团 ); 此 后 ， 节 点 不 断 地 将 自己 的 
立 更 加 精准 的 商品 推荐 系统 等 。 标签 传递 给 邻居 ， 并 从 接收 到 的 邻居 标签 中 选择 一 个 (如 最 多 
个 社团 是 网 络 中 一 组 节点 的 集合 ， 这 些 节点 往往 具有 某 ”的 共同 标签 ) 作为 自己 的 新 标签 ， 当 所 有 节点 的 标签 不 再 改变 
些 共同 的 属性 或 在 网 络 中 具有 相似 的 功能 ;在 拓扑 结构 上 ， 表 ”时 ， 算 法 结束 ， 通 过 查看 节点 标签 即 可 获得 网 络 的 一 种 社团 结 
岗 为 社团 内 部 节点 间 具 有 更 多 的 连接 边 ， 而 社团 成 员 节 点 与 网 A: 具有 相同 标签 的 节点 归属 于 同一 个 社团 。 当 允许 节点 同时 
络 其 余 节 点 之 间 的 连接 边 则 相对 较为 稀少 。 给 定 一 个 网 络 ， 社 。 拥有 多 个 标签 时 ， 标 签 传播 算法 就 可 用 于 重 夺 社团 结构 分 析 。 
下 结构 分 析 算 法 的 目标 就 是 找 出 这 些 节 点 集合 。 从 现实 世界 抽 ” 这 类 算法 的 最 大 优点 是 简单 ， 具 有 近似 线性 的 时 间 复 杂 度 ， 其 
象 出 来 的 复杂 网 络 , 其 社团 结构 往往 具有 重 半 (overlapping) 特 。 不 足 主要 是 准确 度 不 高 ， 且 结果 不 稳定 。 用 于 重 闭 社团 检测 的 


]mli 


性 ， 即 一 个 节点 可 同时 归属 于 多 个 社团 。 正 确 地 识别 出 重 登 结 ”标签 传播 算法 主要 有 COPRADLBMLPAP!, SLPAU?, MLPA, 

构 是 社团 检测 算法 面临 的 一 个 挑战 。 LPAcw!!7], DLPAI3] 等 ,不同 算法 的 区 别 主要 在 于 标签 选择 策略 
本 文 在 以 往 工作 中 的 基础 上 ， 提 出 了 一 种 基于 群体 智能 思 以 及 传播 策略 不 同 。 

想 的 自 组 织 重 县 社 团结 构 分 析 算 法 SO?CSA? (self-organizing 2) 局 部 扩展 及 优化 算法 

overlapping community structure analysis algorithm) 。 和 群体 智能 局 部 扩展 及 优化 (local expansion and optimization) 算法 的 

最 初 由 Beni 和 WangD 共 同 提出 ， 用 于 描述 一 组 机 器 人 的 群体 基本 思想 可 分 为 种 子 节点 ( 集 ) 扩 展 和 局 部 社团 合并 两 种 类 别 。 


行为 。 群 体 智能 可 以 看 做 是 一 种 具有 分 布 式 、 自 组 织 特 点 的 自 种 子 节点 (和 集 ) 扩展 方法 中 ， 从 给 定 的 一 个 或 一 组 核心 节 
然 或 人 造 系统 的 行为 集合 。 在 群体 系统 中 ， 有 大 量具 有 相同 行 ”点 出 发 ， 逐 步 添 加 社团 成 员 的 邻居 到 社团 中 ， 只 要 邻居 节点 加 
为 和 目标 的 简单 个 体 ， 它 们 都 是 自治 的 ， 能 与 周围 的 邻居 及 系 ” 入 后 能 改善 社团 的 质量 ， 直 到 不 存在 这 样 的 邻居 节点 为 止 ， 这 
统 环境 进行 交互 。 群 体 智能 理论 认为 ， 由 数量 众多 的 简单 个 体 样 就 检测 到 一 个 社团 。 然 后 在 剩余 节点 中 再 次 选择 核心 节点 
作出 的 简单 行为 选择 ， 将 会 导致 整个 群体 表现 出 远 远 超过 单个 ( 集 ) ， 检 测 新 的 社团 。 若 选择 新 核心 节点 〈 集 ) 后 允许 在 整 
能 ， 且 这 一 现象 是 普遍 存在 的 。SO?CSA? 算 法 把 网 络 。 个 网 络 上 而 不 仅仅 是 剩余 网 络 上 ) 检测 其 他 成 员 节 点 ， 部 分 
个 群体 系统 ， 网 络 节点 是 群体 中 的 一 个 个 个 体 ; 每 个 节 ”节点 就 可 能 会 被 同时 包含 到 多 个 社团 中 ， 因 而 可 用 于 重 闪 社团 
点 依据 当前 自己 关于 网 络 社团 结构 的 局 部 知识 自主 地 选择 要 加 ”检测 。 这 类 算法 发 现 的 社团 结构 的 质量 依赖 于 种 子 节点 ( 集 ) 
入 哪些 社团 〈 可 同时 加 入 多 个 社团 ) ;通过 所 有 节点 的 友 代 的 ”的 选择 。 典 型 的 种 子 节点 《〈 集 ) 扩展 算法 主要 有 IS209、 人 快速 
加 入 行为 选择 ， 整 个 网 络 的 社团 结构 将 逐渐 生长 出 来 。 LEFMU5、Moses09g 以 及 OSLOMI7 等 。 
1 ”相关 工作 Re 
检测 本 地 的 局 部 社团 (partial community) ， 而 后 依据 一 定 的 策 
社团 结构 分 析 算 法 依据 的 基本 思想 主要 有 凝聚 、 分 裂 、 随 各 《如 局 部 社团 的 相似 性 、 合 并 后 社团 的 质量 是 否 增加 等 ) XE 
机 游 走 、 信 息 扩 散 、 谱 分 析 、 统 计 推 断 、 优 化 算法 等 。 文 献 [3,4] — 步 合 并 局 部 社团 ， 最 终 得 到 整个 网 络 的 社团 结构 。 由 于 节点 可 
从 不 同 角度 对 大 多 数 算法 进行 了 综述 : 文献 [3] 给 出 了 多 种 社团 ”能 归属 于 多 个 局 部 社团 ， 所 以 支持 重 受 社团 的 检测 。 某 个 节点 
元 定义 ， 以 定义 类 别 组 织 相关 算法 ; 文献 [和] 则 按 算法 的 原理 进 ”的 局 部 网 络 通常 是 以 该 节点 为 中 心 且 包含 其 所 有 邻居 节点 及 其 
行 了 分 析 。 文 献 [5,6] 重 点 关注 重 受 社团 结构 的 分 析 算 法 ， 尤 其 连 边 的 网 络 。 算 法 的 主要 区 别 在 于 局 部 社团 检测 方法 及 合并 策 
是 文献 [5] 对 比 了 14 种 典型 算法 的 性 能 。 文 献 [7] 则 综述 了 社会 ”” 略 不 同 。 在 局 部 网 络 上 检测 局 部 社团 较为 简单 ， 算 法 的 复杂 度 
网 络 〈socialnetworks ) 的 社团 结构 分 析 算 法 。 本 章 简要 介绍 与 ”主要 取决 于 局 部 社团 的 合并 计算 。 这 类 算法 主要 有 DEMONIUSI, 
本 文 最 为 相关 的 重 堆 社团 结构 分 析 算 法 ， 主 要 是 通过 社团 演进 ”PCMAL9、EgoClustering20 以 及 文献 [21] 的 算法 等 。 
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从 而 获得 网 络 社团 结构 的 算法 。 3) 基于 博弈 论 的 算法 
已 有 研究 中 ， 重 县 社团 结构 分 析 可 分 为 两 种 思路 : 一 种 是 基于 博弈 论 的 算法 Cgame-theoretic algorithms) 模拟 了 一 种 


设计 能 直接 从 网 络 检测 重 车 社团 的 算法 ;， 另 一 种 则 是 利用 已 有 ”达到 当前 社团 结构 状态 的 演进 过 程 。 算 法 把 网 络 中 的 每 个 节点 
的 非 重 合 社 团 检测 算法 , 首先 获得 网 络 的 一 种 非 重 从 社团 结构 ， ”看 做 是 一 个 理性 的 (rational) 或 自私 的 (selfish) 个 体 , 每 个 个 
再 通过 调整 社团 边缘 节点 及 其 邻居 的 社团 归属 来 最 终 获 得 一 种 。 体 依据 定义 的 效用 函数 决定 自己 的 社团 归属 。 人 允许 个 体 同 时 加 
重 营 社团 结构 。 入 多 个 社团 时 ， 可 用 于 重 半 社团 结构 分 析 。 根 据 博弈 论 理论 ， 

当 效 用 函数 是 局 部 线性 函数 时 , 存在 纳什 均衡 (Nash equilibrium ) 
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状态 ， 即 没有 个 体 可 以 通过 单方 面 改变 自己 的 行为 来 增加 自己 。” 选择 更 简单 ， 社 团 的 演进 速度 更 快 ，c) 博弈 论 类 算法 具有 严格 
的 效用 函数 。 用 于 社团 结构 分 析 时 ， 达 到 均衡 状态 表明 得 到 了 的 数学 模型 , 要 定义 满足 局 部 线性 特性 的 收益 函数 和 损失 函数 ， 
一 种 优化 的 社团 结构 。 由 于 寻找 全 局 纳什 均衡 是 一 个 NP-hard ”已 有 算法 中 收益 函数 基于 社团 结构 或 节点 相似 度 定义 ， 而 损失 
问题 ， 这 类 算法 通常 寻找 一 种 局 部 纳什 均衡 作为 蔡 代 。 博 弈 论 ”函数 则 简单 定义 为 加 入 社团 的 “费用 ”《 实 际 与 加 入 的 社团 个 
算法 有 严格 的 数学 模型 ， 但 要 求 设计 满足 局 部 线性 特性 的 效用 BAR) ， 但 这 种 损失 函数 与 社团 结构 没有 直接 关系 ， 因 此 反 
函数 (包括 收益 函数 和 损失 函数 ) ， 这 可 能 会 限制 社团 结构 性 而 可 能 会 影响 社团 的 有 效 演进 , 而 SO?CSA? 算 法 是 一 种 启发 式 
质 的 表达 。 例 如 本 文 提出 的 连接 分 数 就 不 满足 局 部 线性 特性 ， 算法 ， 所 依据 的 演进 策略 没有 先 置 条 件 ， 更 具 一 般 性 ， 因 而 能 
因而 不 能 用 做 效用 函数 中 的 收益 函数 。 这 类 算法 主要 包括 在 演进 策略 中 更 加 灵活 地 表达 社团 结构 的 特性 。 
Game-Theoretic?, PSGAMEP3, NGGAMEP?, GADM@ID.& 1.2 基于 非 重 又 社团 检测 的 算法 


文献 [25] 的 算法 等 。 不 同 算法 的 主要 区 别 在 于 效用 函数 的 设计 这 类 算法 的 基本 思想 是 : 首先 利用 非 重 辣 社团 检测 算法 获 
不 同 。 得 网 络 的 一 种 非 重 登 社团 结构 ， 再 以 这 些 社 团 为 基础 ， 通 过 调 
4) 基于 群体 智能 的 算法 整 社团 边缘 节点 及 其 邻居 的 社团 归属 来 建立 一 种 重 着 的 社团 结 
群体 智能 实际 上 包含 有 一 系列 算法 。 遗 传 算 法 (genetic — 构 。 文 献 [29] 的 算法 通过 比较 社团 边缘 节点 的 离开 或 其 邻居 节 


algorithm, GA) 和 蚁 群 算法 Cant colony algorithm, ACO) 是 两 点 的 加 入 前 后 社团 质量 是 否 有 改善 来 发 现 网 络 的 重 炙 社团 结构 。 
种 用 于 社团 结构 分 析 的 典型 群体 智能 算法 。 遗 传 算法 通过 种 群 。 ”文献 [30] 分 析 了 若干 真实 网 络 的 社团 结构 ， 发 现 用 非 重 考 检测 
个 体 的 交叉 、 变 异 以 及 选择 等 进化 操作 来 求解 问题 的 近似 优化 算法 发 现 的 社团 结构 在 去 除 重 炙 节 点 后 ， 与 网 络 真实 社团 结构 

当 应 用 于 边 网 络 (edge network) 分 析 时 ， 可 发 现 网 络 的 重 。 去 除 重 关节 点 后 的 结构 具有 很 强 的 相似 性 ， 进 而 提出 POVC 
ett AAP], (ASSIS ELK MAN AN TTI, AEF GA 的 算 (permanence based vertex-replication algorithm for overlapping 

难以 用 于 大 规模 网 络 的 社团 结构 分 析 。 文 献 [27] 基 于 蚁 群 血 community detection) 算法 。 在 非 重 炙 社 团结 构 的 基础 上 , 该 算 
提出 了 一 种 重 半 社团 结构 分 析 算 法 AntCBO. Stbs b, 1x5 法 依据 节点 复制 持久 性 (permanence based vertex-replication ) 

是 一 种 标签 传播 算法 ， 只 是 在 标签 传播 时 采用 了 ACO 算 间 标 B1， 尝 试 把 社团 边缘 节点 加 入 其 邻居 所 属 的 社团 ， 从 而 发 
即 标签 由 在 网 络 上 疏 行 的 蚂蚁 携带 到 邻居 节点 。 现 网 络 的 重 登 社团 结构 。 
在 EgoClustering 算法 PE 的 基础 上 , 该 文 作者 提出 了 一 种 寻 这 类 算法 的 性 能 在 很 大 程度 上 依赖 于 非 重 登 检测 算法 能 否 
Be Ake BIE COGS (community optimization Graph swarm) ERA EAH AG IR ERE hth pe EAE BH IT 323 FE UL 
PS), COGS 算法 明确 提 及 基于 群体 智能 思想 : 将 网 络 视 为 一 个 仅 顺 序 调整 一 次 边缘 节点 及 其 邻居 的 社团 归属 的 方式 也 忽略 了 
群体 ， 从 每 个 节点 的 视角 出 发 ， 通 过 节点 与 其 邻居 的 交互 完成 ” 节点 社团 归属 之 间 可 能 存在 的 关联 性 。 
局 部 社团 的 发 现 ， 再 结合 标签 传播 思想 实现 局 部 社团 的 合 
COGS 中 群体 智能 只 是 用 于 局 部 社团 发 现 ， 与 之 不 同 ， 本 文 算 
法 则 是 把 群体 智能 作为 一 种 模拟 达到 当前 社团 结构 状态 的 框架 。 2.1 社团 连接 分 数 

实际 上 ， 标 签 传播 类 算法 和 博弈 论 类 算法 也 可 以 看 做 是 一 算法 SO'CSA? 基于 群体 智能 思想 模拟 一 种 到 达 当 前 社团 
种 类 型 的 群体 智能 算法 : 都 是 通过 节点 间 的 交互 及 迭代 自主 选 ” 结构 状态 的 演化 过 程 。 社 团 演化 过 程 中 ， 节 点 是 否 加 入 一 个 社 
择 ， 从 而 演进 出 一 种 优化 的 网 络 社团 结构 。 不 同 的 是 ， 标 签 传 局 主要 依据 节点 与 该 社团 的 连接 分 数 。 
播 类 算法 背后 的 依据 是 信息 (标签 在 社团 内 部 传递 的 概率 更 文献 [31] 在 分 析 多 个 真实 网 络 的 社团 结构 的 基础 上 ， 提 出 
高 ;而 博弈 论 类 算法 则 是 寻求 一 种 局 部 纳什 均衡 状态 。 此 外 ， 节点 是 否 归 属于 一 个 社团 取决 于 两 种 因素 : a) 节 点 与 每 个 外 部 
于 博弈 论 类 算法 和 SO?CSA? 算法 都 模拟 了 一 种 到 达 当 前 社 ”社团 〈 即 未 加 入 社团 ) 的 连接 的 数量 ， 而 不 是 与 所 有 外 部 社团 
下 结构 状态 的 过 程 ， 算 法 中 节点 都 是 直接 选择 要 加 入 的 社团 ， 的 连接 的 总 数量 ，b) 节 点 与 所 属 社团 的 连接 强度 ， 而 不 仅仅 是 
所 以 两 者 具有 较 大 的 相似 性 , 其 区 别 在 于 : a) PFE 2S SEA , 与 所 属 社团 内 部 节点 的 连接 的 数量 〈 即 属于 同一 社团 的 邻居 的 
个 体 的 策略 〈 即 要 加 入 哪些 社团 ) 把 所 有 要 加 入 的 社团 作为 一 ”数量 ), 连接 强度 则 用 属于 该 社团 的 邻居 节点 的 聚 类 系数 表示 ， 
个 整体 考虑 ， 用 一 个 效用 函数 进行 衡量 ， 而 SO?CSA? 算法 中 ， 聚 类 系数 越 大 ， 连 接 强 度 越 大 ， 反 之 越 小。 该 文 提 出 了 节点 复 
个 体 是 否 加 入 一 个 社团 是 分 别 加 以 考虑 的 ; b) 博弈 论 类 算法 中 ， ” 制 持久 性 指标 作为 节点 加 入 社团 的 依据 ,其 定义 如 式 (1) 所 示 。 
为 了 能 有 效 进行 计算 ， 个 体 在 受 受 限 的 第 赂 空间 中 进行 选择 ， 即 pemo- 1 Jr co], di 
个 体 的 社团 演进 选择 策略 是 : 离开 当前 已 加 入 的 一 个 社团 (v) DO) 

Cleave) ， 或 加 入 一 个 尚未 加 入 的 邻居 社团 Goin) ， 或 离开 当 KH: 10) 表示 节点 与 所 属 社团 的 内 部 连接 数 ;， Erna) 表示 
前 已 加 入 的 一 个 社团 并 加 入 一 个 尚未 加 入 的 邻居 社团 (switch), ”节点 与 外 部 社团 的 最 大 外 部 连接 数 ，D(v) 是 节点 度 ; Cr) 是 
个 体 从 中 选择 最 优 的 一 个 执行 ， 因 而 社团 演进 的 速度 较 慢 ， 而 同属 于 节点 所 属 社团 的 邻居 节点 间 的 聚 类 系数 。 式 中 的 第 1 项 
本 文 算法 中 个 体 分 别 考虑 要 加 入 的 每 一 个 邻居 社团 ， 因 而 策略 度量 了 第 一 种 因素 ， 而 第 2 项 实际 上 度量 了 第 二 种 因素 ， 即 根 


pin 


2 ”算法 描述 
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录用 稿 孙 韩 林 ， 等 : assai OR N 
Ap RE BOM AARE EE, RARIK, 15 标记 该 3 个 节点 为 已 初始 化 ; 
罚 越 小 。 节 点 复制 持久 性 的 取 值 范 围 是 (-1,1], 值 越 大 , 表明 节 } else { 
点 对 该 社团 的 归属 度 越 高 。 n 单独 形成 一 个 社团 ; 

本 文 提出 一 种 新 的 节点 的 社团 归属 度量 指标 连接 分 数 标记 n 为 已 初始 化 ; 
(connection score, CS) ， 其 定义 如 式 〈2) 所 示 。 } 

[1-6,, 0] H 
A e" (E) l 122 社团 结构 的 演进 

其 中 : 10). Div) FIC, 0) 与 节点 复制 持久 性 定义 中 相同 〈 式 在 初始 社团 结构 的 基础 上 ， 所 有 节点 不 断 地 演进 自己 的 社 
中 也 可 用 Ex(v) 代 蔡 D(v) ) 。 连接 分 数 认为 , 节点 是 否 属于 一 局 归属 ， 网 络 的 社团 结构 将 会 逐渐 生长 出 来 。 节 点 社团 演进 的 
个 社团 ， 首 先 取决 于 节点 与 该 社团 内 部 连接 的 数量 在 节点 总 连 基本 思想 是 : a) 节点 只 能 加 入 有 其 邻居 存在 的 社团 ( 称 为 候选 


BeBe OS 中 所 占 的 比例 〈 或 内 部 连接 数量 与 最 大 外 部 连接 数 ”社团 ) ; b) 节点 通过 与 邻居 的 交互 获得 这 些 可 能 加 入 的 候选 社 


量 的 比例 ) ; 其 次 取决 于 同属 于 该 社团 的 节点 邻居 之 间 的 聚 类 ，” 团 ， 并 自主 决定 加 入 哪些 社团 。 

系数 ; 聚 类 系数 对 连接 分 数 具 有 强化 作用 ， 而 不 是 作为 一 种 可 节点 主要 依据 与 候选 社团 的 连接 分 数 来 决定 是 否 加 入 该 社 

县 加 的 因素 单独 考虑 。 连 接 分 数 的 取 值 范围 是 [0,1]， 值 越 大 ， 下 。 由 于 计算 时 要 用 到 聚 类 系数 ， 只 有 在 节点 与 候选 社团 的 连 

表明 节点 对 该 社团 的 归属 度 越 高 。 接 数 大 于 或 等 于 3 时 才能 计算 连接 分 数 ， 当 连接 数 小 于 3 时 ， 

2.2 ”基于 群体 智能 的 重 又 社团 结构 分 析 算 法 是 否 加 入 需要 作 特 殊 处 理 。 节 点 获得 所 有 候选 社团 后 ， 是 否 加 
SO?CSA? 算法 分 为 三 个 步骤 ， 即 社团 结构 的 初始 化 、 社 团 入 某 个 社团 的 规则 如 下 : 

结构 的 演进 以 及 社团 结构 的 调整 。 a) 若 与 该 社团 的 连接 分 数 最 大 ， 则 加 入 该 社团 ; 

2.2.1 社团 结构 的 初始 化 b) 若 连接 分 数 与 最 大 连接 分 数 的 比率 《简称 连接 分 数 比 ) 
算法 从 一 种 初始 的 社团 结构 开始 ， 迭 代 地 进行 各 节点 社团 超过 给 定 的 闪 值 ， 加 入 该 社团 ; 

归属 的 演进 ,初始 社团 结构 的 质量 对 算法 运行 效率 有 较 大 影响 : c) 若 节点 与 该 社团 的 连接 数 为 2( 此 时 不 能 计算 连接 分 数 )， 

在 一 种 高 质量 的 初始 社团 结构 的 基础 上 ， 网 络 的 社团 结构 能 够 。 且 与 所 有 候选 社团 的 最 大 连接 数 小 于 或 等 于 3， 加 入 该 社团 ; 

较 快 地 演进 到 一 种 优化 的 结果 。 从 社团 的 核心 特征 (社团 内 部 d) 若 不 存在 满足 上 述 条 件 的 候选 社团 , 节点 就 单独 形成 

联系 紧密 ， 而 外 部 连接 相对 稀疏 ) 出发， 初始 化 算法 在 网 络 中 ”个 社团 。 

寻找 一 组 K-Z (K-clique) 作为 初始 社团 。K- 派 系 的 成 员 节 如 果 同 时 有 多 个 候选 社团 满足 上 述 加 入 条 件 ， 算 法 还 将 检 

点 间 具 有 最 紧密 的 联系 ， 即 完全 连接 ， 因 而 可 以 确信 它们 属于  ” 查 这 些 社团 中 是 否 有 某 些 ( 小 ) 社团 被 包含 在 另 一 个 (大 ) 社 

同一 个 社团 。 下 中 。 如 果 存 在 这 种 情况 ， 大 社团 将 吸收 小 社团 ( 即 删除 小 社 
初始 化 社团 结构 的 生成 过 程 如 算法 1 (Initialize〉 所 示 。 算 HD ， 以 加 速算 法 的 收敛 。 

法 简单 地 为 每 个 节点 只 寻找 一 个 初始 社团 。 当 节点 有 邻居 已 经 当 没 有 节点 的 社团 归属 发 生 改 变 时 ,社团 结构 的 演进 结束 。 


被 初始 化 ， 且 节点 加 入 后 该 社团 仍 是 一 个 -派系 时 ,节点 加 入 ”但 通常 这 种 理想 状态 难以 达到 ， 算 法 通过 设置 最 大 演进 次 数 来 


该 社团 ， 否则 ， 如 果 节 点 能 与 两 个 尚未 初始 化 的 邻居 形成 一 个 ” 确保 运行 终止 。 
3- 派 系 ， 这 三 个 节点 就 组 成 一 个 新 的 初始 社团 。 如 果 上 述 两 种 设 团结 构 的 演进 如 算法 2〈Evolve) 所 示 。 
条 件 都 不 能 满足 ， 节 点 就 形成 一 个 单独 社团 。 初 始 化 算法 生成 算法 2 Evolve 
的 初始 社团 要 么 是 一 个 天 -派系 , 要 么 是 一 个 单独 节点 , 其 中 K- 输入 : 网 络 ， 初 始 社团 结构 ， 连 接 分 数 比 阔 值 。 
派系 是 下 一 步 社团 结构 演进 的 核心 。 输出 : 演进 的 社团 结构 。 
算法 1 Initialize 过 程 
输入 : 网 络 。 while (当前 演进 次 数 < 最 大 演进 次 数 ) { 
输出 : 初始 社团 结构 。 生成 一 个 随机 的 节点 演进 顺序 ; 
WHE: for 〈 按 演进 顺序 的 每 一 个 节点 n) { 
while (有 未 初始 化 的 节点 n) ( 获取 mn 的 候选 社团 ; 
if (n 有 邻居 已 初始 化 && n 与 该 邻居 所 属 社团 的 所 有 成 员 构 成 K- 派 计算 n 与 每 个 候选 社团 的 连接 分 数 ; 
系 ){ for 每 一 个 候选 社团 cc) { 
n 加 入 该 社团 ; if (n 与 cc 的 连接 数 > 2) 
标记 n 为 已 初始 化 ; if (n 与 cc 的 连接 分 数 最 大 ) 
} elseif (n 与 未 初始 化 的 两 个 邻居 构成 3- 派系 ) { n 加 入 社团 cc; 


n 与 该 两 邻居 形成 一 个 新 社团 ; elseif (n 与 cc 的 连接 分 数 比 > t) 
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m 


if Cn 加 入 了 多 个 社团 
while〈 有 社团 包含 在 另 一 个 社团 中 ) { 
Ei 


if (没有 节点 的 社团 归属 发 和 9 


return; 


群体 智能 算法 中 ， 每 个 个 
正 这 些 状态 的 一 致 性 。 


n 加 入 社团 cc; 


elseif((n 与 cc 的 连接 数 ==2) && 
n 与 所 有 候选 社团 的 最 大 连接 数 < 3)) 


n 加 入 社团 cc; 


if (n 未 加 入 任何 候选 社团 ) 


n 单独 形成 一 个 社团 ; 


if (n 加 入 的 社团 有 改变 ) 


n 通知 其 邻居 节点 ; 


) 


删除 被 包含 的 社团 ; 
通知 被 删除 社团 成 员 及 其 邻 
} 


E 改 变 ) 


体 都 保存 有 自己 的 状态 ， 需 要 
这 通过 个 体 间 的 交互 实现 。 对 
算法 ， 每 个 节点 都 保存 了 自己 加 入 的 社团 ， 因 而 当 社 团 成 员 发 


| SO?CSA? 


生变 化 时 ， 必 须 保持 所 有 成 员 节 点 存储 的 社团 副本 一 致 。 为 J 
减少 个 体 交 互 开销 ,算法 实现 时 ,采用 共享 方式 存储 社团 结构 
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3 ”社团 结构 质量 的 度量 


3.1 归 一 化 互信 息 

当 已 知 网 络 的 真实 社团 结构 时 ， 可 用 归 一 化 互信 息 
(normalized mutual information, NMI) 来 度量 算法 检测 到 的 社 
下 结构 与 真实 社团 结构 的 相似 程度 ， 从 而 评判 检测 社团 结构 的 
整体 质量 。 归 一 化 互信 息 值 越 大 ， 表 示 算 法 发 现 的 社团 结构 质 
量 与 真实 社团 结构 越 相似 ， 社 团结 构 质 量 越 好 。 其 取 值 范围 是 
[0,1]， 取 1 时 表示 算法 发 现 的 社团 结构 与 真实 社团 结构 完全 相 
同 ， 而 取 0 时 则 表示 两 者 完全 不 同 。 文 献 [32] 提 出 了 一 种 用 于 
重合 社团 结构 相似 性 计算 的 归 一 化 互信 息 计算 方法 ， 其 定义 如 
式 (3) 所 示 。 


KX :Y) 
max(H (X), HP) 6) 


NMI = 


其 中 : X MY 2 APERRRRHIZRY: H(X) M HQ?) 是 两 种 
AAI, XY X AY 的 互信 息 ， 定 义 为 


1 
1(X:Y) - [HOX)-H(X|¥) + HY) - HQ | X). (4) 


其 中 : HOC[Y) FLAY | X) Z& x AY Bj— mp2 41-8 CRAM 
RS VL SCHR[Z2]) 。 
3.2 BREE 

现实 世界 网 络 的 真实 社团 结构 多 是 由 人 手工 建立 的 ， 实 际 
上 往往 难以 获得 ， 尤 其 是 对 大 规模 网 络 而 言 。 在 不 知道 真实 社 


新 
来 计算 
要 六 


社 


生 改 变 时 ， 
它们 都 引用 了 同一 个 社团 如 


而 每 个 节点 只 保存 其 加 入 社团 的 引用 标志 ; 这 样 ， 当 社团 归属 
节点 就 不 需要 通知 要 加 入 或 离开 社团 的 其 他 成 员 


此 外 ， 为 了 简化 个 体 交 互 ，SO2CSA: 算法 采用 了 主动 通 
的 方式 ， 即 当 社 团 归 属 发 生变 化 时 ， 节 点 主动 通知 其 邻居 自己 
通 


= 


本 ， 而 社团 引用 标志 不 发 生 


那些 社团 以 及 离开 哪些 社团 。 邻 居 节 点 可 根据 这 些 ; 


避 结 构 的 情况 下 ，Newman 提出 的 模块 度 Cmodularity) 被 广泛 
1T GEES) 社团 结构 质量 的 度量 。 有 多 个 研究 将 Newman 
模块 度 进行 了 扩展 , 用 于 度量 重 炙 社团 结构 的 质量 ; 文献 [33] 对 
这 些 扩 展 进行 了 对 比分 析 。 
Newman 模块 度 存 在 偏好 (bias) 问题 : 在 一 些 情况 下 偏好 
小 社团 ， 而 在 另 一 些 情况 下 偏好 大 社团 ， 其 中 后 者 在 文献 中 称 


Sp 


自己 的 候选 加 入 社团 ， 而 不 再 需要 额外 的 交互 。 特 别 需 
的 是 ， 在 删除 被 包含 的 小 社 


AIRY 


9 所 有 成 员 及 其 邻居 节点 ,以 


2.2.3 社团 结构 的 调整 


点 各 自 
些 社 


[入 应 加 入 的 社团 。 
独立 地 更 新 其 归属 社团 等 原因 ， 节 点 可 能 与 已 力 
之 间 的 连接 数 很 小 (甚至 为 0)，, 但 尚未 及 时 更 新 ; 虽然 


节点 与 社团 的 连接 数 很 大 (甚至 超过 当前 加 入 社团 的 最 大 连接 
于 聚 类 系数 小 ， 连 接 分 数 比 达 不 到 阔 值 ， 所 以 节点 

社团 结构 演进 完成 后 ， 需 要 对 获得 
由 整 部 分 节点 的 社团 归属 ， 以 提高 


数 ) ， 但 
AD 
的 社 
社团 结构 的 质量 。 

后 处 理 可 根据 社团 结构 的 
成 网 络 和 真实 网 络 的 社团 结构 分 别 设计 了 不 同 的 后 处 理 入 


EIA o 


[入 这 些 社团 。 因 此 ， 在 


节点 需要 通知 被 删除 


保证 这 些 节 点 状态 的 一 致 性 。 


社团 结构 演进 结束 后 ， 某 些 节 点 可 能 会 加 入 错误 的 社团 ， 


于 受 演进 次 数 限制 ， 以 及 节 
NA FE 


FARR OP EE [i] PT, ALE Chen 等 人 提出 了 模块 度 密度 

(modularity density) 的 概念 ， 用 于 解决 偏好 问题 。 文 献 [33] 也 
将 模块 度 密度 进行 了 扩展 ， 提 出 了 一 种 适用 于 重 辣 社团 结构 的 
模块 度 密度 计 算 方法 ， 其 定义 如 式 C5) 所 示 。 


=> 


in out 
Er|+|E 


lle, fo 
ee zie- 2|E 


其 中 : C 是 一 种 社团 结构 ;c 和 wc' 是 其 中 的 社团 ， 其 余 变 量 的 


| 
‘| 之 ja e | 


c'eC,c'#e 


P 


结构 进行 后 处 理 ， 即 


体 特点 进行 。 实 验 音 


了 分 针对 合 


定义 如 下 : 
|E” AC 
> uices 


out 
E 


| 可 = YY Ay 


|E... 一 2 esse Get As 
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Ep: 4 
1, AMA 0; 


coefficient ) ; 


文献 [33] 推 荐 
的 乘积 。 


是 网 络 邻接 揣 


d= 


2|E?| 


c ， 
Fens GaGa) 


d = 


E 


Cyc! 


Doses jeer (Mere) 
iec, jec' ict pe 


3.3” 重 又 节点 的 质量 


E 阵 的 元 素 ， 若 节 

Z| c 的 归属 系数 (belonging 
f aeaic) 是 一 种 归属 函数 (belonging function) , 

如 可 以 是 4。 和 4j. 的 乘积 或 平均 值 等 

a BUAC Ti LEER 


Qc 是 节点 i 归 


点 5 和 了 了 相 连接， 则 为 


&T 


o MAR 


生 和 简单 性 出 发 ， 


度 的 倒数 , 而 归 


属 函数 则 为 两 者 


3H 


化 互信 


筷 和 模块 度 


密度 都 是 从 统计 总 


结构 的 整体 质量 ， 但 无 法 多 
节点 的 质量 包含 两 个 层面 : 
BAL) BT AMS 
BERN b) AC HLA CE TE AR 
TE CLARTRUÉCTI pa 


是 否 正确 。 


25H US 


节点 质量 


的 确切 指示 。 
a)zé d IER AH EZTA, BI 


CM ERERE Sel 


d 


JEŽ 


节点 都 能 够 


R)、 准 


score, 


式 (6) ~ CD 所 示 。 


天 正确 发 


的 情况 下 ， 可 以 


重病 度 ( 即 节点 加 入 的 社团 个 数 ) 


JAE (recall, 


确 率 (precision, P) 以 及 两 者 的 调和 平均 
F) 来 指示 是 否 正确 


值 F- 分 数 CF- 


也 发 现 了 重合 节点 ， 其 定义 分 别 如 


“真实 重 关节 点 的 数量 (6) 
BUTE WRN MB m 
算法 发 现 的 重 枯 节点 的 总 数量 ， 
2xRxP 
R+P (8) 


4 ”实验 及 结果 分 析 


本 文 用 若干 
法 检测 重 车 社团 结 


测 重合 社团 结 


http://www.oslom.org/) 。 


的 实验 结果 。 
4.1 网 络 数据 
4.1.1 合成 网 络 


验证 社团 结构 分 析 算 法 的 怕 
上 团结 构 与 算法 发 现 的 社团 


成 网 络 的 真实 神 


生 能 。 
构 时 ，SLPA 和 OSLOM 算法 
且 这 两 种 算法 的 源 代 码 可 公 
https://sites.google.com/site/communitydetectionslpa/ ; 


本 文 也 对 比 了 SO?CSA? 与 这 两 种 算法 


合 度 的 分 布 来 指示 。 


合成 网 络 和 现实 世界 网 络 来 验证 SO?CSA? 算 
AIH 


文献 [5] 的 大 量 对 比 实验 表明 ， 检 


开 获得 


有 较 好 的 性 能 
C SLPA , 
OSLOM , 


IF 


Xiy 合 作 期 刊 


Ch 
孙 韩 林 ， 等 : 一 种 基于 群体 条 T 社团 结构 分 


(BR) 为 -2， 社 团 规模 分 布 负 指数 (参数 世 ) 为 -1。 在 上 
述 参数 设置 下 ， 社 团 混合 参数 Cu) 分 别 取 0.1、0.2、0.3、0.4 
B05, T GUESS (参数 om) W2, 4.6. 8K10, BB 
点 数 (HBA on) W 1000, 2000. 3000. 4000. 5000. 6000. 
7000 及 8000, FEA AK 18 个 合成 网 络 。 混合 参数 人 4 指明 了 社团 


成 员 与 外 部 网 络 的 连接 数 占 该 社团 成 员 总 连接 数 的 比率 ， 值 越 
大 ， 表 明 社 团结 构 越 模糊 。 


4.1.2 现实 世界 网 络 
合成 网 络 的 拓扑 性 质 可 通过 参数 进行 控制 ， 但 现实 世界 网 
络 的 拓扑 性 质 往往 比 合成 网 络 更 复杂 。 实 验 中 也 用 三 个 从 现实 
系统 抽象 的 网 络 来 验证 算法 的 性 能 , 分 别 是 EmailP?l, PowerP6 
和 了 GPB7 网 络 。 其 中 Email 网 络 是 西班牙 罗 维 拉 一 威 尔 吉利 大 
学 (Univeristy Rovira i Virgili) 的 电子 邮件 交互 网 络 ， Power 网 
络 是 美国 西部 的 电力 网 络 ，PGP 网络 是 使 用 PGP 算法 (pretty- 
good-privacy algorithm ) 进 行 安全 信息 交换 的 部 分 用 户 构成 的 一 
个 连通 网 络 。 这 三 个 网 络 均 是 无 向 、 无 权重 的 网 络 。 
若 网 络 中 一 个 节点 的 度 为 1， 即 该 节点 只 与 唯 个 节点 
连接 ， 则 如 果 该 节点 要 加 入 社团 ， 它 只 能 加 入 到 所 连接 节点 所 
在 的 社团 。 实 验 中 首先 对 这 些 网 络 进行 预 处 理 ， 即 迭代 地 移 除 
度 为 1 的 节点 ， 直 到 不 存在 这 样 的 节点 为 止 ， 再 应 用 算法 对 其 
进行 社团 结构 分 析 。 移 除 这 类 极端 状态 节点 ， 可 减 小 网 络 的 规 
模 ， 加 快 算法 的 运行 。 经 过 预 处 理 后 ，Email、Power 和 PGP 网 
络 分 别 移 除了 13.68%、32.14% 和 49.12% 的 节点 ， 但 却 保留 了 
97.16%、75.92% 和 78.43% 的 边 , 即 经 过 预 处 理 修 正 后 的 网 络 保 
留 了 原 网 络 的 核心 拓扑 结构 特征 。 这 些 现实 世界 网 络 及 其 修正 
网 络 的 属性 如 表 1 所 示 。 
表 1 
节点 数 


1133 


现实 世界 网 络 的 属性 
边 数 修正 后 节点 数 d 
5451 978 


网 络 多 正 后 边 数 


5296 


Email 


Power 4941 6594 3353 5006 


PGP 10680 24316 5434 19070 


42 实验 设置 

实验 中 , 对 每 一 个 网 络 三 种 算法 各 运行 30 次 , 最 后 分 别 计 
算 30 次 运行 结果 的 统计 值 〈 平 均值 及 标准 
运行 SO CSA? IN, 最 大 演进 次 数 设置 为 20; HERE BL DS 


差 ) 。 


能 时 ， 最 基本 的 方法 是 对 比 合 
结构 ， 计 算 两 者 的 相 


似 程度 。LFR 模型 64 是 最 常 ) 
Tee (GAN) 为 10 000 的 网 络 ， 
EE CC kmax)100, 社团 最 大 规模 (参数 cmax ) 


为 40, 节点 最 大 


和 最 小 规模 (参数 cmin) 分 别 为 100 和 20, 节 


的 合成 网 络 模型 。 


实验 中 ， 生 成 


HU AS 


FIERE (BR kK) 


点 度 分 布 负 指数 


采用 渐进 策略 ， 即 在 最 初 若干 次 演进 中 ， 该 闵 值 取 较 
准确 的 核心 社团 ， 而 在 随后 的 演进 中 降低 该 阐 
j 得 到 扩展 的 、 更 完整 的 社团 。 实 验 中 通过 多 次 尝试 设 
理 的 连接 分 数 比 阔 值 : 对 合成 网 络 , 前 10 次 演进 该 闽 值 
设 为 0.8， 后 10 次 设 为 0.65; 对 真实 网 络 ， 该 阐 值 始终 设置 为 
0.9. 

运行 SLPA 算法 时 ， 其 参数 r BU 
择 最 好 的 〈 归 一 化 互信 息 值 或 模块 度 密度 
OSLOM 算法 参数 取 默 认 值 。 


值 的 设 
大 值 ， 


默认 值 ， 并 从 中 选 
值 最 大 的 ) 结果 。 
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4.3 合成 网 络 的 实验 结果 分 析 


4.3.1 后 处 理 


合成 网 络 社团 结 


数 进行 社团 归属 调整 。 
BLA E SE Ou E A 


(Postproces 


n 


构 的 后 处 理 简单 地 依据 节点 与 社团 的 连接 


实际 上 ， 这 种 后 处 理 可 以 看 做 是 一 种 归 
社团 结构 演进 。 后 处 理 过 程 如 算法 3 


s-1) 所 示 。 对 已 经 加 入 的 社团 ， 如果 节 点 与 该 社团 


连接 数 小 于 其 与 所 有 
下 连接 数 ) 的 12， 节点 离开 该 社团 , 对 没有 加 入 的 候选 社团 ， 
如 果 节 点 与 该 社团 连 
则 节点 加 入 该 社团 ; 


有 连接 社团 的 最 大 连接 数 〈 简 称 为 最 大 社 


AM, 


合 节 点 的 网 络 ; d) 


ChinaXi 
等 : 一 种 基于 群体 智能 的 自 组织 重 登 社团 结构 分 析 算 法 


在 人 和 om 变化 的 两 种 情形 下 ，SLPA 发 现 的 


社团 结构 质量 比 OSLOM 要 好 ; 在 on 变化 的 情形 下 ，OSLOM 


的 平均 归 一 化 互信 息 值 先 减 小 后 缓慢 增加 ， 这 些 现象 都 与 文献 
[5] 中 的 实验 结果 相 一 致 。 
SO?CSA? 算 法 在 重合 节点 比例 很 高 时 性 能 变 差 ， 原 因 在 于 


这 种 情形 下 可 能 


部 分 社团 之 间 的 差异 较 小 ， 如 果 给 定 的 初始 


社团 是 这 些 相似 入 


团 的 公共 部 分 ， 则 其 往往 只 能 演进 为 一 个 社 


接 数 大 于 或 等 于 最 大 社团 连接 数 的 1/2， 
当 没 有 节点 的 社团 归属 发 生 改变 时 ， 算 法 


结束 。 类 似 地 ， 采 用 设置 最 大 调整 次 数 的 方法 确保 算法 终止 。 
实验 中 最 大 调整 次 数 设置 为 3。 


算法 3  Postprocess-1 


输入 : 网 络 ; 


社团 结构 。 


输出 : 修正 的 社团 结构 。 


while (调整 次 数 < 最 大 调整 次 数 ) { 


for〔 按 处 理 顺 序 的 


生成 一 个 随机 的 节点 处 理 顺序 ; 


每 个 节点 n) { 


计算 n 


与 所 有 有 连接 社团 的 连接 数 ; 


for 每 一 个 有 连接 社团 cc) 


if(n 


n A CC; 
elseif (n 未 加 入 cc && 与 cc 的 连接 数 大 于 或 等 于 最 大 社团 连 

接 数 的 1/2) 
n 加 入 cc; 


} 
if (没有 


} 


已 加 入 cc && 5 cc De Bedv] 


7 


于 最 大 社团 连接 数 的 1/2) 


节点 更 新 社团 归属 ) 


return; 


4.3.2 社团 结构 的 整体 质量 


图 1 给 出 了 三 种 算法 检测 到 的 重合 社团 结构 的 平均 归 一 化 


互信 息 及 标准 


差 。 从 


图 1 中 可 以 看 到 : a) 当 温 合 参数 上 从 0.1 


增加 到 0.5 时 ( 取 om=3，on=1000) ， 算 法 SO?CSA? aah 归 
一 化 互信 息 值 超过 了 SLPA 和 OSLOM 两 种 算法 ， 接 近 1， 

明 SO?CSA? 发 现 的 社团 结构 与 真实 社团 结构 更 相似 ， mdr 
VA jfi EU; b) AUT BRE om 从 2 增加 到 10 时 ( 取 u =0.3， 


on=1000) ， 三 种 算法 的 平均 归 一 化 互信 息 值 均 逐 渐 减 小 ， 但 


Al. 本 文 对 比 了 on 取 8000 时 算法 OSLOM 和 SO?CSA? 检测 到 
的 社团 结构 ， 发 现在 所 有 实验 结果 中 ， 后 者 检测 到 的 社团 数量 


总 是 较 少 ， 这 在 一 定 程度 表 明 上 述 原 因 分 析 是 合理 的 。 


由 于 无 法 获得 基于 博弈 论 的 社团 检测 算法 的 源 代 码 ， 同 时 


为 了 避免 算法 实现 带 来 的 误差 , 本 文 对 比 了 SO?CSA? 算 法 的 结 


果 与 文献 [5,22,25] 


中 博弈 论 类 算法 分 析 LFR 合成 网 络 社团 的 结 


果 。 本 文 实验 中 设置 的 LFR 参数 (包括 节点 数 、 节 点 度 分 布 、 


社团 大 小 分 布 、 重 县 节点 比例 及 节点 重合 度 等 ) PAT, 对 
比 相近 参数 设置 (对 SO?CSA? HSER 3, 平均 节点 度 40, 最 


大 节点 度 100; 而 对 博弈 论 类 算法 重 县 度 是 2, 平均 节点 度 20, 


最 大 节点 度 50, 


其 余 参 数 相同 ， 后 一 设置 下 社团 发 现 更 容易 ) 


情况 下 的 归 一 化 互信 息 ， 发 现 SO?CSA? 算法 的 NMI 值 更 大 ， 


社团 结构 质量 更 好 。 


m LET Tai (b) om. 
SA | —— 'FkE-—--- 
* -soos TE Tje * 
tbe +----- oo * og + 
& il | telat ede] Jw. 
AON Ea 1 0 I E Em ^R Tw 
gU. + Kg + El 
B Bur 7 
oa} tzw * 
05 M 
* 
085 05 
01 015 02 025 03 035 04 045 05 2 3 4 5 6 T 8 9 10 
n om 
[E 
作 xk--—--- oo a 
_ qe. 
Sache eee ae T 
08 - S xd = 3*- 
= 入 =- 
= = c d 
Ha Tx 
à x 
04 Er Ex 
ES d 
al so?osa! 
1 1 1 1 
1000 2000 3000 4000 5000 6000 7000 8000 
on 
Ae a SA fy J] — El 示 准 
图 1 合成 网 络 的 平均 归 一 化 互信 息 及 其 标准 差 


4.3.3 重 登 节点 的 质量 


图 2 给 出 了 
可 率 及 标准 差 。 从 


三 种 算法 发 现 的 社团 结构 中 重 且 节点 的 平均 召 


图 2 中 可 以 看 出 : a) 在 各 种 情形 下 , SO?CSA? 


算法 的 召回 率 几 乎 都 是 最 好 的 ， 表 明 该 算法 能 有 效 地 检测 到 重 
Bi rks b) 多 数 情 况 下 ( 除 网 络 重 车 节点 比例 很 高 时 ) , SLPA 


PEM BSD AA Bae, c) 大 多 数 情况 下 , OSLOM 算法 的 


重 肝 节点 召回 率 最 差 ， 尤 其 是 当 节 点 重 闪 度 较 大 时 ， 但 在 用 于 


SO?CSA? 的 减 小 速度 最 慢 , 远 好 于 其 他 两 种 算法 ,表明 SO?CSA? 


TESTS p ETT 


面 更 具 优 势 ;c) 24A ERE BRI Bo on 


从 1 000 增加 到 8000 Hf (HQ u=0.3, om=3) ， 总 体 上 还 是 


SO?CSA? 发 


岗 的 社 


结构 质量 更 好 ，SLPA 和 SO2CSA2 的 平均 


= 
1] 


Att Ba 


Ae 
息 值 均 逐 
OSLOM 的 平均 归 一 


渐 减 小 , 但 SO?CSA? 的 减 小 速度 更 慢 ; 而 


化 互信 息 值 先是 减 小 ， 但 当 on 取 值 超过 6 


000 时 反而 有 缓慢 的 上 升 , 甚 至 在 on W 8000 时 超过 了 SO2CSA2， 


表明 OSLOM 算法 更 适 


STORES, BAA GI 


RREAN MAERAH 分 析 时 有 所 改善 ， 其 


重合 节点 召回 率 逐 渐 上 升 。 


图 3 给 出 了 


三 种 算法 发 现 的 社团 结构 中 重 辣 节 点 的 平均 准 


确 率 及 标准 差 。 从 图 3 中 可 以 看 出 : a) 4 值 增 大 的 过 程 中 ， 三 


种 算法 的 重 肝 节点 准确 率 相差 不 大 ， 当 4 值 较 大 时 ，SO?CSA? 


算法 的 准确 率 更 高 ;b) TA LAE om 从 2 增 大 到 10 时 ,SLPA 


的 准确 率 最 好 ， 


其 余 两 种 算法 的 准确 率 较 差 ， 而 在 重 登 度 较 大 


IM, SO2CSA2 的 ; 


EXE OSLOM 要 好 ; He SH on 从 1 
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000 增加 到 s 000 的 过 程 中 ， 算 法 OSLOM 的 准确 率 最 好 ， " ee = m 
SO2CSA? 次 之 〈 很 接近 ) ， 而 SLPA BUEGR RE CE EUR AR Ll EL J| FS 
MESH. yp | Muss 

图 4 给 出 了 综合 召回 率 和 准确 率 的 平均 F- 分 数 及 标准 差 。 "e Sere) HERE Tw 
从 图 4 中 可 以 看 出 ; a) 总 体 来 看 , 在 上 或 on 变化 时 ,SO2CSA? da AT 
算法 发 现 的 重要 节点 的 质量 (节点 是 否 重 登 ) 最 好 ，SLPA 算法 l 
RZ (GRA HIRE HES NAM E, OSLOM 算法 最 差 (分析 深 a gas Dore quM | aaa pM 
HERR VSIA TE) , HERE on 取 8.000 时 没有 SLPA 的 下 - ee Es CNN — 
分 数值 , 这 是 因为 在 30 次 算法 运行 中 , 有 一 次 运行 结果 的 召回 Pa | Se ce a 
率 和 准确 率 都 为 0， 因而 无 法 计算 下- 分数 ， bjom 值 变化 时 ， 从 SL E | | | 


F- 分 数值 看 ，SLPA ABUSE EET SEE CA) 最 
好 ， 但 这 并 不 意味 着 它 发 现 的 社团 结构 的 质量 是 最 好 的 《从 平 


图 4 合成 网 络 的 平均 重合 节点 F- 分 数 及 其 标准 差 


均 归 一 化 互信 息 值 看 ， ne d SLPA) , sd 尽 上 述 合 成 网 络 的 实验 结果 表明 ， 无 论 从 检测 重 夺 节点 还 是 
E SLPA 能 更 准确 地 发 现 重 盖 节点 ， 但 其 发 现 的 重 辣 节点 度 与 。 从 正确 发 现 重 辣 节点 的 重合 度 方面 SO?CSA? 算 法 都 要 优 于 两 
真实 值 相 比 偏 小 ， 导 致 其 社团 结构 质量 变革。 种 对 比 算法 。 


图 5~7 分 别 给 出 了 om 取 不 同 值 时 三 种 算法 检测 到 的 重 厂 。 4.4 真实 网 络 的 实验 结果 分 析 

节点 重合 度 的 分 布 ( 算 法 30 次 运行 的 频数 统计 ) 。 从 图 中 可 以 441 后 处 理 
随 着 om 值 增 大 ， 三 种 算法 发 现 的 节点 重合 度 与 真实 节 通过 分 析 SO?CSA? 算法 发 现 的 现实 世界 网 络 的 社团 结构 ， 
TEEERU BORK CLFR 模型 生成 的 网 络 中 ， 所 有 重合 。 ”发 现 其 中 包含 大 量 只 有 一 个 成 员 节 点 的 社团 ， 且 该 节点 与 其 他 
iim » fH SO'CSA? 的 偏离 程度 最 小 ， 所 能 发 ”社团 的 连接 数 都 为 1。 从 式 〈4) 可 以 看 出 ， 这 类 节点 对 模块 度 
现 的 正确 节点 重合 度 的 比例 远 高 于 其 他 两 种 算法 ，SLPA 和 密度 的 贡献 是 负 值 。 如 果 社 团结 构 中 这 类 节点 的 数量 较 多 ， 它 
(EL 


OSLOM RIY A HEH RE RMA ELSES HES RE A 们 对 计算 的 模块 度 密度 可 能 产生 很 大 影响 ， 导 致 模块 度 密度 

bi " 难以 客观 地 反映 更 重要 的 、 有 多 个 成 员 的 社团 的 质量 。 因 此 ， 
i si ten fee 在 对 比 不 同 算法 的 性 能 时 ， 如 果 不 同 算法 发 现 的 社团 结构 中 这 
an a E cu 类 节点 的 数量 差异 很 大 ， 则 不 能 用 直接 计算 的 模块 度 密度 进行 
"ET 3 ES i 比较 。 由 于 SLPA 和 OSLOM 算法 发 现 的 社团 结构 中 只 有 一 个 
ul c LI 成 员 的 社团 极 少 ， 所 以 在 比较 之 前 需要 对 获得 的 社团 结构 进行 
— M et 修正 。 

MT eee 本 文 对 SO'CSA? 算法 发 现 的 社团 结构 首先 进行 算法 3 的 
P — B 后 处 理 ， 调 整 错误 的 节点 社团 归属 ， 然 后 再 进行 算法 4 
JE (Postprocess-2) 的 修正 ， 即 移 除 这 类 只 有 一 个 成 员 节点 、 且 该 


节点 与 其 他 社团 的 连接 数 为 1 的 社团 。 称 经 过 算法 4 处 理 后 得 
到 的 社团 结构 为 网 络 的 核心 社团 结构 〈core community 


图 2 合成 网 络 的 平均 重 车 节点 召回 率 及 其 标准 差 
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a - 图 8 现实 世界 网 络 核心 社团 结构 的 平均 模块 密度 及 其 标准 站 
2000 2000 
^ 5 o 6 2 ^ 5 0 5 2 44.3 核心 社团 名 $4959 $ =z aD, * € dE 
| "To | El o 给 出 了 三 种 算法 发 现 的 现实 世界 网 络 核心 社团 结构 的 
图 6 合成 网 络 的 重 登 节点 重 登 度 分 布 一 OSLOM 算法 


主要 重 芭 节点 重合 度 分 布 。 从 图 9 中 可 以 看 到 ， 对 三 个 网 络 ， 
d. - md MH. am "an SLPA 1X BE A HL SR E E 2 AY BEB; TT SO?CSA? 和 OSLOM 
3 3 | 2 | 能 够 发 现 重 又 度 更 大 的 重合 节点 ， 尤 其 是 SO?CSA?， 大 多 数 情 


| | ÜLTRÉERSUE AE AGREXBG. EFA RAL 
| SO?CSA? fit RINE HEMI TS A LEP, 本 文 认为 SO?CSA? 发 现 
fiL SE t FA S EAE o BE 
- ” 5x LIRR, SOCSA? J — BUG 2L HBL BLAST 1 Wr RI 
l APUL. RRL: LSE MU Je Ve REA IV Je JA 8 
" T 节点 质量 看 ， 都 比 SLPA 和 OSLOM 算法 有 较 大 的 提升 ， 尤 其 
- FOB AU RBC ASAI, PERE 
I 提升 更 为 显著 。 
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算法 4  Postprocess-2 mm LIS 


5 
at 
a 
n 


输入 : 网 络 ， 社 团结 构 。 n E wo 7 m P 
b: 核心 社团 结构 。 PN 

T T 1 
过 程 : 1 


while (有 只 有 1 个 成 员 的 社团 c) { l a us = m r^ 
if Cc 的 唯一 成 员 与 其 他 社团 的 连接 数 都 是 1) 
(C)PGP 

从 社团 结构 中 移 除 该 社团 ; C T3 a 

一 Er 

h A i 1 | 1 上 | 

对 比 不 同 算法 的 性 能 时 ， 只 能 基于 相同 的 网 络 社团 结构 进 ee ee M 


行 。 因 此 ， 本 文 也 从 SLPA 和 OSLOM 发 现 的 社团 结构 中 移 除 


图 9 现实 世界 网 络 核心 社团 结构 的 重 辣 节点 重 炙 度 分 布 


了 在 SO*?CSA? 后 处 理 中 移 除 的 节点 。 由 于 SO CSA? 30 次 运行 

的 结果 略 有 差异 , 本文 只 移 除 多 次 运行 结果 中 的 公共 移 除 节 点 ， 5 ”结束 语 

这 部 分 节点 占 移 除 节 点 总 数 的 90% 以 上 。 在 移 除 这 些 节 点 后 ， 

SLPA 和 OSLOM 算法 发 现 的 社团 结构 的 模块 度 密 度 都 增 大 了 ， 本 文 基于 群体 智能 思想 提出 了 一 种 自 组 织 的 重 叙 社团 结构 

表明 上 述 处 理 是 合理 的 。 分 析 算 法 SO?CSA?。 该 算法 模拟 了 网 络 社团 结构 到 达 当 前 状态 

4.4.2 核心 社团 结构 的 整体 质量 的 一 种 过 程 ， 分 为 三 个 阶段 ， 即 社团 结构 初始 化 、 社 团结 构 演 
图 8 给 出 了 三 个 现实 世界 网 络 核心 社团 结构 的 平均 模块 度 。 化 以 及 社团 结构 调整 阶段 。 在 初始 化 阶段 ， 从 社团 内 部 联系 紧 


密度 及 标准 差 。 从 图 8 中 可 以 看 出 ，a)SO?CSA? 发 现 的 核心 社 。 密 而 外 部 连接 相对 稀 琉 的 特性 出 发 , 算法 在 网 络 中 寻找 一 组 K- 
结构 具有 更 好 的 模块 度 密度 , 尤其 是 Power 网 络 ;b) SO?CSA? ”派系 作为 初始 的 社团 结构 。 在 社团 结构 演化 阶段 ， 在 初始 社团 
的 标准 差 最 小 ， 表 明 算法 的 稳定 性 更 好 。 结构 的 基础 上 ， 所 有 节点 迭代 地 演进 自己 的 社团 归属 ， 最 终 整 
个 网 络 的 社团 结构 逐渐 生长 出 来 ， 节 点 主要 依据 与 社团 的 连接 
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分 数 来 决定 自己 的 社团 归属 。 在 社团 结构 调整 阶段 ， 通 过 后 处 
理 操作 调整 少量 节点 的 社团 归属 ， 以 改善 社团 结构 的 质量 。 在 
多 个 合成 网 络 和 现实 世界 网 络 上 进行 的 一 系列 实验 表明 ， 
SO?CSA? 算 法 能 更 有 效 地 发 现 网 络 的 重 半 社团 结构 ， 尤 其 适用 
于 分 析 重 登 节 点 比例 较 高 和 重 登 节点 重 受 度 较 大 的 网 络 。 
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